Exploración de data

Column

Variables a utilizar

En la data figuran, además de las variables a analizar, las variables de año, nombre del país (Country Name), código del país en código ISO de 3 letras y la región a la que pertenece cada uno de los países en cuestión.

Las variables seleccionadas son Participación femenina en parlamentos nacionales, el crecimiento del PBI anual, la tasa de graduación de mujeres en educación superior, tasa de participación femenina en la fuerza laboral por país,la estimación de la estabilidad política y ausencia de violencia por país y la estimación del control de corrupción por país. La participación femenina en parlamentos nacionales será utilizada como la variable dependiente. Se evalurá si las otras variables mencionadas la afectan y explican. Asimismo, la calificación de igualdad de género por país será utilizada como la variable de control.

Breve descripción de cada variable:

  • Participación femenina en parlamentos nacionales (escanos): Variable representada por el porcentaje de escaños asignado a mujeres en cada país.
  • Crecimiento del PBI anual (PBI): Indica el porcentaje de cambio en la economía de un país de un año a otro
  • Tasa de graduación de mujeres en educación superior (educacion_superior): Porcentaje de mujeres que completan la educación superior en un país, en comparación con el total de la población femenina en la edad típica de graduación.
  • Tasa de participación femenina en la fuerza laboral por país (fuerza_laboral): Mide el porcentaje de mujeres que participan activamente en el mercado laboral de un país
  • Estimación de la estabilidad política y ausencia de violencia por país (estabilidad_politica): Indicador que mide la estabilidad política de un país y la ausencia de violencia y conflictos. Un valor más alto indica un entorno político más estable, mientras que un valor bajo refleja mayores niveles de inestabilidad y violencia
  • La estimación del control de corrupción por país (corrupcion): Representa la percepción del nivel de corrupción en el gobierno de un país
  • Calificación de igualdad de género por país (igualdad): Mide qué tan equitativo es un país en cuanto a oportunidades y derechos entre hombres y mujeres, con un valor más alto indicando una mayor igualdad y un valor bajo reflejando disparidades significativas entre géneros.

Los gráficos analizan las variables exclusivamente para el año 2020 como parte de un análisis exploratorio.

Gráfico de Barras de países por Región

Column {data-width=500}

Gráfico de Participación femenina en parlamentos

NORMALIZAMOS LOS DATOS EN UNA ESCALA DEL 1 AL10

Estabilidad Política por Regiones

Corrupción por Regiones

Nivel de Educación Superior por Regiones

PBI por Regiones

Fuerza Laboral Femenina por Regiones

Descripción de variables

Column

Variable dependiente e independiente

La variable “escanos” será el foco de este análisis para evaluar cómo las variables seleccionadas pueden influir en ella. Además, es necesario establecer la relación entre “escanos” (la variable dependiente) y las variables independientes y de control.

En cuanto a la data del año en cuestión, 2020, la variable muestra una distribución confiable, ya que solo tiene 5 casos con un valor de 0. Su media es 19.2, lo que está cerca de la mediana de 19.2. Esto sugiere que la proporción de mujeres en los parlamentos nacionales no está siendo excesivamente baja ni extremadamente alta, lo que podría reflejar una tendencia hacia una participación moderada de las mujeres en la política.

Boxplot de participación femenina en los parlamentos por regiones en el 2020

Column

Summary de variables númericas

Str de todas las variables

Column {data-width=500}

Gráfico de la Matriz de Correlaciones

$chisq
[1] 239.7492

$p.value
[1] 1.594801e-42

$df
[1] 15

Se optó por este gráfico debido a que en los gráficos de dispersión, al ser tanto países, no se observaba si había o no correlación.

Modelos de regresión

Column

Regresión de Gauss

Nuestra variable dependiente es una númerica continua sin acotar, por lo que ejecutaremos regresiones gaussianas.

En la primera regresión, todas las variables mantienen una relación positiva excepto estabilidad política con la dependiente. Las variables estadísticamente signficativas son fuerza laboral y corrupción. El R2 es muy bajo.

Se procede a estandaruzar la regresión para visualizar el efecto real de las variables independientes en la dependiente. El AIC se mantiene. Fuerza laboral y corrupción se mantienen como significativas con efectos de 1.85 con signficancia de 0.1 y 4.12 con significancia de 0.05.

Incluyendo nuestra variable de control (igualdad), observamos que el R2 ajustado presenta una importante mejora y que las variables estadísticamente significativas no son solo estabikidad política y corrupción, sino tambien igualdad.

Comparando los efectos de las variables en el modelo estandarizado y el estandarizado con la variable de control, se ve un incremento del efecto de las variables. Así también, el R2 ajustado se ve incrementado por la variable de control.

Column {data-width=400}

Regresión


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.482  -7.412  -0.610   8.067  35.458 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          16.52579    3.71016   4.454 1.45e-05 ***
PBI                   0.03674    0.09776   0.376  0.70752    
educacion_superior    0.02811    0.04006   0.702  0.48375    
estabilidad_politica -2.28049    1.44166  -1.582  0.11539    
fuerza_laboral        0.12907    0.06268   2.059  0.04089 *  
corrupcion            4.12161    1.37662   2.994  0.00313 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.74 on 185 degrees of freedom
Multiple R-squared:  0.09218,   Adjusted R-squared:  0.06765 
F-statistic: 3.757 on 5 and 185 DF,  p-value: 0.002903
Regresion: modelo 1
 (1)
(Intercept) 16.526***
(3.710)
PBI 0.037
(0.098)
educacion_superior 0.028
(0.040)
estabilidad_politica -2.280
(1.442)
fuerza_laboral 0.129*
(0.063)
corrupcion 4.122**
(1.377)
Num.Obs. 191
R2 0.092
R2 Adj. 0.068
AIC 1490.8
BIC 1513.6
Log.Lik. -738.409
F 3.757
RMSE 11.55
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Variable dependiente= Escaños; Variables independientes= PBI, Educación Superior, Estabilidad Política, Fuerza Laboral femenina, Corrupción.

Regresión estandarizada


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion, data = data_estandarizada)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.482  -7.412  -0.610   8.067  35.458 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           23.9415     0.8495  28.183  < 2e-16 ***
PBI                    0.3272     0.8708   0.376  0.70752    
educacion_superior     0.6332     0.9024   0.702  0.48375    
estabilidad_politica  -2.2271     1.4079  -1.582  0.11539    
fuerza_laboral         1.8499     0.8984   2.059  0.04089 *  
corrupcion             4.1232     1.3771   2.994  0.00313 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.74 on 185 degrees of freedom
Multiple R-squared:  0.09218,   Adjusted R-squared:  0.06765 
F-statistic: 3.757 on 5 and 185 DF,  p-value: 0.002903
Regresion: modelo 2
&nbsp;(1)
(Intercept) 23.942***
(0.850)
PBI 0.327
(0.871)
educacion_superior 0.633
(0.902)
estabilidad_politica -2.227
(1.408)
fuerza_laboral 1.850*
(0.898)
corrupcion 4.123**
(1.377)
Num.Obs. 191
R2 0.092
R2 Adj. 0.068
AIC 1490.8
BIC 1513.6
Log.Lik. -738.409
F 3.757
RMSE 11.55
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión con variable de control


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion + igualdad, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6162  -8.4044  -0.4788   7.3258  31.5131 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          -6.74446    6.35293  -1.062 0.289795    
PBI                   0.03423    0.09323   0.367 0.713892    
educacion_superior    0.07558    0.03968   1.905 0.058394 .  
estabilidad_politica -5.15604    1.52154  -3.389 0.000859 ***
fuerza_laboral        0.07019    0.06125   1.146 0.253299    
corrupcion            4.61491    1.31748   3.503 0.000578 ***
igualdad              7.16985    1.62579   4.410 1.76e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.2 on 184 degrees of freedom
Multiple R-squared:  0.179, Adjusted R-squared:  0.1522 
F-statistic: 6.685 on 6 and 184 DF,  p-value: 2.042e-06
Regresion Anidada: modelo 1 y 3
&nbsp;(1)
(Intercept) -6.744
(6.353)
PBI 0.034
(0.093)
educacion_superior 0.076+
(0.040)
estabilidad_politica -5.156***
(1.522)
fuerza_laboral 0.070
(0.061)
corrupcion 4.615***
(1.317)
igualdad 7.170***
(1.626)
Num.Obs. 191
R2 0.179
R2 Adj. 0.152
AIC 1473.6
BIC 1499.6
Log.Lik. -728.814
F 6.685
RMSE 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión con variable de control estandarizada


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion + igualdad, data = control_estandarizado)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6162  -8.4044  -0.4788   7.3258  31.5131 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           23.9415     0.8101  29.555  < 2e-16 ***
PBI                    0.3049     0.8304   0.367 0.713892    
educacion_superior     1.7027     0.8940   1.905 0.058394 .  
estabilidad_politica  -5.0354     1.4859  -3.389 0.000859 ***
fuerza_laboral         1.0060     0.8778   1.146 0.253299    
corrupcion             4.6167     1.3180   3.503 0.000578 ***
igualdad               4.5069     1.0220   4.410 1.76e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.2 on 184 degrees of freedom
Multiple R-squared:  0.179, Adjusted R-squared:  0.1522 
F-statistic: 6.685 on 6 and 184 DF,  p-value: 2.042e-06
Regresion: modelo 4
&nbsp;(1)
(Intercept) 23.942***
(0.810)
PBI 0.305
(0.830)
educacion_superior 1.703+
(0.894)
estabilidad_politica -5.035***
(1.486)
fuerza_laboral 1.006
(0.878)
corrupcion 4.617***
(1.318)
igualdad 4.507***
(1.022)
Num.Obs. 191
R2 0.179
R2 Adj. 0.152
AIC 1473.6
BIC 1499.6
Log.Lik. -728.814
F 6.685
RMSE 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión estandarizada con variable de control estandarizada

Regresion Anidada: modelo 3 y 4
&nbsp;apropiacion (II) &nbsp;apropiacion (IV)
(Intercept) 23.942*** 23.942***
(0.850) (0.810)
PBI 0.327 0.305
(0.871) (0.830)
educacion_superior 0.633 1.703+
(0.902) (0.894)
estabilidad_politica -2.227 -5.035***
(1.408) (1.486)
fuerza_laboral 1.850* 1.006
(0.898) (0.878)
corrupcion 4.123** 4.617***
(1.377) (1.318)
igualdad 4.507***
(1.022)
Num.Obs. 191 191
R2 0.092 0.179
R2 Adj. 0.068 0.152
AIC 1490.8 1473.6
BIC 1513.6 1499.6
Log.Lik. -738.409 -728.814
F 3.757 6.685
RMSE 11.55 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparar modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
185 25499.90 NA NA NA NA
184 23062.24 1 2437.663 19.44868 1.76e-05

Se escoge el segundo modelo.

Column {data-width=500}

Linealidad

Homocedasticidad


    studentized Breusch-Pagan test

data:  modelo_con_control
BP = 8.8855, df = 6, p-value = 0.1801

Normalidad de Residuos


    Shapiro-Wilk normality test

data:  residuals_std
W = 0.98803, p-value = 0.1076

Multicolinealidad

                 PBI   educacion_superior estabilidad_politica 
            1.045228             1.211595             3.347131 
      fuerza_laboral           corrupcion             igualdad 
            1.168139             2.633219             1.583185 

Valores Influyentes

Valores Cook’s Distance para una mejor visualizavión de valores influyentes

Valores influyentes (según Cook's Distance): 4 27 44 71 74 99 105 144 156 172 189 

Analisis CONGLOMERADO y CLUSTERIZACIÓN

Column

Analisis para pasos para la clusterización

El proceso de clusterización comienza con la selección de las variables relevantes para el análisis y la creación de un nuevo rowname basado en la columna de países, lo que permitirá clasificar los países en subgrupos sin perder los datos asociados.

En primer lugar, se observa que la correlación entre la variable central (en este caso, “escanos”) y algunas de las variables seleccionadas no es significativamente alta, siendo la regulación económica y el nivel de corrupción las que presentan las correlaciones más altas con la variable central.

Para llevar a cabo la clusterización, se utiliza una estrategia aglomerativa, específicamente el algoritmo AGNES, que sugiere que los datos deben dividirse en 3 clusters. Al aplicar este algoritmo, se obtienen algunos valores mal clusterizados, los cuales se identifican a través del índice silhouette. En este caso, 15 países presentan un silhouette width negativo, lo que indica que están mal agrupados.

Gráfico de Correlación

Column

Inicio del proceso de clusterización: se calcula número de clusters

Clauster vía AGNES

escanos PBI educacion_superior estabilidad_politica fuerza_laboral corrupcion agnes
Afghanistan 27.01613 -2.3511007 6.16258 -2.7026317 16.463 -1.4936998 1
Albania 29.50820 -3.3020820 58.06254 0.0885765 50.089 -0.5729245 2
Algeria 25.75758 -5.0000000 54.24337 -0.8478143 15.439 -0.6664602 2
Andorra 46.42857 -11.1839399 12.78195 1.5885718 71.018 1.2660053 3
Angola 30.00000 -5.6382147 49.14371 -0.6007260 73.047 -0.9386725 2
Antigua and Barbuda 11.11111 -18.8803992 55.11217 0.9295049 52.775 0.2385333 3
Argentina 40.85603 -9.9004848 24.08671 -0.0720262 46.506 -0.1637807 2
Armenia 23.48485 -7.2000000 54.90856 -0.7716423 57.689 -0.0034387 2
Australia 30.46358 -0.3346864 76.21569 0.8616769 60.192 1.6329559 3
Austria 39.34426 -6.6329914 45.31873 0.8875288 55.902 1.4777892 3
Azerbaijan 17.35537 -4.3000001 24.51853 -0.8522475 64.728 -1.0770841 2
Bahamas, The 12.82051 -21.4234631 66.92837 0.8302374 62.057 1.1062059 3
Bahrain 15.00000 -4.6446374 45.82210 -0.6101093 43.484 -0.0935939 2
Bangladesh 20.91691 3.4480176 54.48079 -0.9158078 36.565 -1.0036772 2
Barbados 20.00000 -12.5396664 53.41999 1.1205775 57.585 1.1940669 3

Column {data-width=500}

Dendograma

>2 clusters (Al cortar en 0.5, se ve que las ramas se separan claramente en tres grupos distintos, lo que sugiere que k = 3 es un buen número de clusters.)

Evaluación de uso

Valores mal clusterizados

 [1] "115" "116" "120" "127" "144" "161" "187" "33"  "41"  "44"  "52"  "56" 
[13] "62"  "63"  "66" 

15 países de 191

Gráfico de AGNES